Model Evaluation (Confusion Matrix, ROC-AUC Curve)

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Logistic Regression

227

মডেল ইভ্যালুয়েশন মেশিন লার্নিংয়ের একটি গুরুত্বপূর্ণ অংশ, যা মডেলের কার্যকারিতা বা পারফরম্যান্স মূল্যায়ন করতে ব্যবহৃত হয়। Confusion Matrix এবং ROC-AUC Curve হল দুটি জনপ্রিয় মেট্রিক্স যা ক্লাসিফিকেশন মডেলগুলির পারফরম্যান্স মূল্যায়ন করতে ব্যবহৃত হয়। এগুলি বিশেষভাবে বাইনারি ক্লাসিফিকেশন মডেলগুলির জন্য খুবই কার্যকরী। আসুন, এগুলির বিশদ আলোচনা করি।

১. Confusion Matrix (কনফিউশন ম্যাট্রিক্স)

Confusion Matrix হলো একটি টেবিল যা ক্লাসিফিকেশন মডেলের পারফরম্যান্স পরিমাপ করার জন্য ব্যবহৃত হয়। এটি মূলত সঠিক এবং ভুল পূর্বাভাসের সংখ্যা (ট্রু পজিটিভ, ট্রু নেগেটিভ, ফালস পজিটিভ, ফালস নেগেটিভ) প্রদর্শন করে, যা মডেলটির কার্যকারিতা বোঝাতে সাহায্য করে।

Confusion Matrix এর উপাদানসমূহ:

True Positive (TP): মডেল সঠিকভাবে পজিটিভ ক্লাস পূর্বাভাস করেছে।
True Negative (TN): মডেল সঠিকভাবে নেগেটিভ ক্লাস পূর্বাভাস করেছে।
False Positive (FP): মডেল ভুলভাবে পজিটিভ ক্লাস পূর্বাভাস করেছে (Type I Error)।
False Negative (FN): মডেল ভুলভাবে নেগেটিভ ক্লাস পূর্বাভাস করেছে (Type II Error)।

Confusion Matrix Example:

ধরা যাক, একটি মডেল ইমেইল স্প্যাম ডিটেক্ট করার জন্য প্রশিক্ষিত এবং এটি দুটি শ্রেণীতে (স্প্যাম এবং নন-স্প্যাম) ভাগ করেছে।

	Predicted Spam	Predicted Not Spam
Actual Spam	TP = 50	FN = 10
Actual Not Spam	FP = 5	TN = 100

এখানে:

TP (True Positive): 50 স্প্যাম ইমেইল সঠিকভাবে স্প্যাম হিসেবে চিহ্নিত হয়েছে।
TN (True Negative): 100 নন-স্প্যাম ইমেইল সঠিকভাবে নন-স্প্যাম হিসেবে চিহ্নিত হয়েছে।
FP (False Positive): 5 নন-স্প্যাম ইমেইল ভুলভাবে স্প্যাম হিসেবে চিহ্নিত হয়েছে।
FN (False Negative): 10 স্প্যাম ইমেইল ভুলভাবে নন-স্প্যাম হিসেবে চিহ্নিত হয়েছে।

Confusion Matrix ব্যবহার:

Confusion Matrix থেকে আমরা অনেক গুরুত্বপূর্ণ মেট্রিক্স বের করতে পারি, যেমন:

Accuracy = $\frac{TP + TN}{TP + TN + FP + FN}$
Precision = $\frac{TP}{TP + FP}$
Recall (Sensitivity) = $\frac{TP}{TP + FN}$
F1-Score = $2 \times \frac{Precision \times Recall}{Precision + Recall}$

উদাহরণ কোড:

from sklearn.metrics import confusion_matrix
y_true = [1, 0, 1, 1, 0, 0, 1]
y_pred = [1, 0, 1, 0, 0, 1, 1]
cm = confusion_matrix(y_true, y_pred)
print(cm)

সারাংশ:

Confusion Matrix হল একটি শক্তিশালী টুল যা মডেলের ভুল এবং সঠিক পূর্বাভাসগুলি বিশ্লেষণ করতে সাহায্য করে এবং মডেল পারফরম্যান্সের অন্যান্য মেট্রিক্স বের করতে সহায়ক।

২. ROC Curve এবং AUC (Area Under the Curve)

ROC Curve (Receiver Operating Characteristic Curve) একটি গ্রাফিক্যাল রিপ্রেজেন্টেশন যা মডেলের পারফরম্যান্স নির্ধারণ করে, বিশেষভাবে বাইনারি ক্লাসিফিকেশন মডেলগুলির জন্য। এটি মডেলের True Positive Rate (TPR) এবং False Positive Rate (FPR) এর মধ্যে সম্পর্ক দেখায়।

ROC Curve এর উপাদান:

True Positive Rate (TPR) বা Recall: $\frac{TP}{TP + FN}$
False Positive Rate (FPR): $\frac{FP}{FP + TN}$

ROC Curve গ্রাফের মধ্যে, TPR Y-অক্ষ (Vertical) এবং FPR X-অক্ষ (Horizontal) এ প্লট করা হয়।

AUC (Area Under the Curve):

AUC বা Area Under the Curve হল ROC Curve-এর নিচে যে এলাকা আছে, তার আয়তন। এটি মডেলের পারফরম্যান্সের এক ধরনের সংক্ষিপ্ত পরিমাপ। AUC এর মান 0 থেকে 1 এর মধ্যে থাকে:

AUC = 1: মডেলটি পূর্ণ পারফরম্যান্স দেখাচ্ছে, সঠিকভাবে সবকিছু পূর্বাভাস করছে।
AUC = 0.5: মডেলটি কেবল অনুমান করছে, কোনো পারফরম্যান্স নেই।
AUC < 0.5: মডেলটি খারাপ কাজ করছে, এমনকি এলোমেলো পূর্বাভাসের চেয়েও খারাপ।

ROC Curve এবং AUC Example:

from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

y_true = [0, 0, 1, 1]  # আসল টার্গেট
y_scores = [0.1, 0.4, 0.35, 0.8]  # মডেলের স্কোর

fpr, tpr, thresholds = roc_curve(y_true, y_scores)
roc_auc = auc(fpr, tpr)

# ROC Curve Plot
plt.plot(fpr, tpr, color='blue', lw=2, label=f'AUC = {roc_auc:.2f}')
plt.plot([0, 1], [0, 1], color='gray', linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")
plt.show()

সারাংশ:

ROC Curve: মডেলের পারফরম্যান্স দেখানোর জন্য একটি গ্রাফিক্যাল রিপ্রেজেন্টেশন যা True Positive Rate (TPR) এবং False Positive Rate (FPR) এর সম্পর্ক প্রদর্শন করে।
AUC: এটি ROC Curve-এর নিচের এলাকার পরিমাপ, যা মডেলের পারফরম্যান্সের একটি সংক্ষিপ্ত পরিমাপ প্রদান করে।

Confusion Matrix এবং ROC-AUC Curve এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Confusion Matrix	ROC-AUC Curve
ব্যবহার	সঠিক এবং ভুল পূর্বাভাসের সংখ্যা পরিমাপ করতে	মডেলের পারফরম্যান্স দেখানোর জন্য গ্রাফিক্যাল রিপ্রেজেন্টেশন
মেট্রিক্স	Accuracy, Precision, Recall, F1-Score	True Positive Rate (TPR), False Positive Rate (FPR)
পারফরম্যান্স	কনফিউশন ম্যাট্রিক্সের সাহায্যে মডেল পারফরম্যান্স বিশ্লেষণ	AUC (Area Under Curve) দ্বারা মডেল পারফরম্যান্স পরিমাপ
ব্যবহারযোগ্যতা	ছোট ডেটাসেট এবং বাইনারি/মাল্টিক্লাস ক্লাসিফিকেশন	বিশেষভাবে বাইনারি ক্লাসিফিকেশন মডেলগুলির জন্য

সারাংশ

Confusion Matrix মডেলের সঠিক এবং ভুল পূর্বাভাস বিশ্লেষণ করার জন্য ব্যবহৃত হয় এবং বিভিন্ন মেট্রিক্স (যেমন Precision, Recall, F1-Score) বের করতে সাহায্য করে।
ROC Curve এবং AUC মডেলের পারফরম্যান্সের একটি গ্রাফিক্যাল রিপ্রেজেন্টেশন সরবরাহ করে এবং AUC মানের মাধ্যমে মডেলটি কতটা কার্যকর তা পরিমাপ করা হয়।

এই দুটি মেট্রিক্স মডেল ইভ্যালুয়েশন এবং মডেল নির্বাচন প্রক্রিয়ায় গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By

SATT Academy

Logistic Regression এর ভূমিকা Binary Classification এবং Sigmoid Function Decision Boundary এবং Probabilistic Prediction

Model Evaluation (Confusion Matrix, ROC-AUC Curve)

১. Confusion Matrix (কনফিউশন ম্যাট্রিক্স)

Confusion Matrix এর উপাদানসমূহ:

Confusion Matrix Example:

Confusion Matrix ব্যবহার:

সারাংশ:

২. ROC Curve এবং AUC (Area Under the Curve)

ROC Curve এর উপাদান:

AUC (Area Under the Curve):

ROC Curve এবং AUC Example:

সারাংশ:

Confusion Matrix এবং ROC-AUC Curve এর মধ্যে পার্থক্য

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Model Evaluation (Confusion Matrix, ROC-AUC Curve)

১. Confusion Matrix (কনফিউশন ম্যাট্রিক্স)

Confusion Matrix এর উপাদানসমূহ:

Confusion Matrix Example:

Confusion Matrix ব্যবহার:

সারাংশ:

২. ROC Curve এবং AUC (Area Under the Curve)

ROC Curve এর উপাদান:

AUC (Area Under the Curve):

ROC Curve এবং AUC Example:

সারাংশ:

Confusion Matrix এবং ROC-AUC Curve এর মধ্যে পার্থক্য

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!